展开的神经网络最近实现了最先进的MRI重建。这些网络通过在基于物理的一致性和基于神经网络的正则化之间交替来展开迭代优化算法。但是,它们需要大型神经网络的几次迭代来处理高维成像任务,例如3D MRI。这限制了基于反向传播的传统训练算法,这是由于较大的记忆力和计算梯度和存储中间激活的计算要求。为了应对这一挑战,我们提出了加速MRI(GLEAM)重建的贪婪学习,这是一种高维成像设置的有效培训策略。 GLEAM将端到端网络拆分为脱钩的网络模块。每个模块都以贪婪的方式优化,并通过脱钩的梯度更新,从而减少了训练过程中的内存足迹。我们表明,可以在多个图形处理单元(GPU)上并行执行解耦梯度更新,以进一步减少训练时间。我们介绍了2D和3D数据集的实验,包括多线圈膝,大脑和动态心脏Cine MRI。我们观察到:i)闪闪发光的概括以及最先进的记忆效率基线,例如具有相同内存足迹的梯度检查点和可逆网络,但训练速度更快1.3倍; ii)对于相同的内存足迹,闪光在2D中产生1.1dB PSNR的增益,而3D在端到端基线中产生1.8 dB。
translated by 谷歌翻译
高维模型通常具有较大的内存足迹,必须在训练后进行量化,然后将其部署在资源受限的边缘设备上以进行推理任务。在这项工作中,我们开发了一个信息理论框架,用于量化从训练数据$(\ mathbf {x},\ mathbf {y})$的线性回归剂的问题,用于某些基本统计关系$ \ mathbf {y} = \ Mathbf {X} \ BoldSymbol {\ Theta} + \ Mathbf {V} $。博学的模型是对潜在参数$ \ boldsymbol {\ theta} \ in \ mathbb {r}^d $的估计值,仅使用$ bd $ bits来代表,其中$ b \ in(0,in 0,0,in(0) \ infty)$是预先指定的预算,$ d $是维度。在此设置下,我们为Minimax风险提供了信息理论的下限,并建议使用基于嵌入的算法进行匹配的上限,该算法紧密到恒定因素。上限和上限共同表征了达到与未量化设置相当的性能风险所需的最小阈值位预算。我们还提出了在计算上有效且最佳的随机hadamard嵌入到下限的轻度对数因子。我们的模型量化策略可以概括,我们通过将方法和上限扩展到两层relu神经网络以进行非线性回归来显示其功效。数值模拟表明,我们提出的方案的性能得到改善,以及其与下限的亲密关系。
translated by 谷歌翻译
我们开发了快速算法和可靠软件,以凸出具有Relu激活功能的两层神经网络的凸优化。我们的工作利用了标准的重量罚款训练问题作为一组组-YELL_1 $调查的数据本地模型的凸重新印度,其中局部由多面体锥体约束强制执行。在零规范化的特殊情况下,我们表明此问题完全等同于凸“ Gated Relu”网络的不受约束的优化。对于非零正则化的问题,我们表明凸面式relu模型获得了RELU训练问题的数据依赖性近似范围。为了优化凸的重新制定,我们开发了一种加速的近端梯度方法和实用的增强拉格朗日求解器。我们表明,这些方法比针对非凸问题(例如SGD)和超越商业内部点求解器的标准训练启发式方法要快。在实验上,我们验证了我们的理论结果,探索组-ELL_1 $正则化路径,并对神经网络进行比例凸的优化,以在MNIST和CIFAR-10上进行图像分类。
translated by 谷歌翻译
Covid-19大流行是人类的祸害,宣称全世界超过500万人的生活。虽然疫苗正在全世界分布,但表观需要实惠的筛选技术,以便为无法获得传统医学的世界服务。人工智能可以提供利用咳嗽声音作为主要筛选模式的解决方案。本文介绍了多种模型,这些模型在学术文献目前呈现的最大评估数据集上取得了相对尊敬的性能。此外,我们还显示性能随着培训数据规模而增加,表明世界各地的数据收集,以帮助使用非传统方式对抗Covid-19大流行。
translated by 谷歌翻译
训练深神网络是一个众所周知的高度非凸问题。在最近的作品中,显示出具有RELU激活的正则化两层神经网络没有二元性差距,这可以通过凸面程序进行全局优化。对于具有向量输出的多层线性网络,我们提出了凸双问题,并证明对偶性差距对于深度三和更深的网络而言并非零。但是,通过将深层网络修改为更强大的并行体系结构,我们表明二元性差距完全为零。因此,强大的凸面双重性具有,因此存在等效的凸面程序,使培训深层网络达到全球最优性。我们还证明,参数中的重量衰减正则化明确地通过封闭形式表达式鼓励低级溶液。对于三层非平行relu网络,我们表明对级别1数据矩阵的强双重性具有强度,但是,对白色数据矩阵的二元性差距不是零。同样,通过将神经网络体系结构转换为相应的并行版本,二元性差距消失了。
translated by 谷歌翻译
了解深度神经网络成功背后的基本机制是现代机器学习文学中的关键挑战之一。尽管尝试了很多,但尚未开发扎实的理论分析。在本文中,我们开发了一种新颖的统一框架,以通过凸优化镜头揭示隐藏的正则化机制。首先表明,具有重量衰减正则化的多个三层relu子网的训练可以等同地作为较高尺寸空间中的凸优化问题来等效地投射,其中稀疏通过组$ \ ell_1 $ -norm正常化强制实施。因此,Relu网络可以被解释为高维特征选择方法。更重要的是,我们证明,当网络宽度固定时,可以通过标准凸优化求解器全局优化等同的凸起问题通过具有多项式复杂度的标准凸优化求解器。最后,我们通过涉及合成和真实数据集的实验来数值验证我们的理论结果。
translated by 谷歌翻译
我们在限制下研究了一阶优化算法,即使用每个维度的$ r $ bits预算进行量化下降方向,其中$ r \ in(0,\ infty)$。我们提出了具有收敛速率的计算有效优化算法,与信息理论性能匹配:(i):(i)具有访问精确梯度甲骨文的平稳且强烈的符合目标,以及(ii)一般凸面和非平滑目标访问嘈杂的亚级别甲骨文。这些算法的关键是一种多项式复杂源编码方案,它在量化它之前将矢量嵌入随机子空间中。这些嵌入使得具有很高的概率,它们沿着转换空间的任何规范方向的投影很小。结果,量化这些嵌入,然后对原始空间进行逆变换产生一种源编码方法,具有最佳的覆盖效率,同时仅利用每个维度的$ r $ bits。我们的算法保证了位预算$ r $的任意值的最佳性,其中包括次线性预算制度($ r <1 $),以及高预算制度($ r \ geq 1 $),虽然需要$ o \ left(n^2 \右)$乘法,其中$ n $是尺寸。我们还提出了使用Hadamard子空间对这种编码方案的有效放松扩展以显着提高梯度稀疏方案的性能。数值模拟验证我们的理论主张。我们的实现可在https://github.com/rajarshisaha95/distoptconstrocncomm上获得。
translated by 谷歌翻译
我们描述了两层向量输出relu神经网络训练问题的凸半无限频体。该半无限的双重承认有限尺寸表示,但其支持在难以表征的凸起集中。特别是,我们证明非凸神经网络训练问题相当于有限维凸形成形程序。我们的工作是第一个确定全球神经网络的全球最佳与连阳性方案之间的强大联系。因此,我们展示了神经网络如何通过半非环境矩阵分解来隐化地揭示求解连接成型程序,并从该配方中汲取关键见解。我们描述了第一算法,用于可证明导航的全局最小值的导航神经网络训练问题,这些算法是固定数据等级的样本数量的多项式,但维度指数是指数。然而,在卷积架构的情况下,计算复杂性在所有其他参数中仅在滤波器大小和多项式中是指数的。我们描述了我们能够完全找到这种神经网络训练问题的全球最佳的环境,并提供了软阈值的SVD,并提供了一种成交量松弛,保证确切地用于某些问题,并与随机的解决方案相对应实践中的梯度下降。
translated by 谷歌翻译
This work addresses an alternative approach for query expansion (QE) using a generative adversarial network (GAN) to enhance the effectiveness of information search in e-commerce. We propose a modified QE conditional GAN (mQE-CGAN) framework, which resolves keywords by expanding the query with a synthetically generated query that proposes semantic information from text input. We train a sequence-to-sequence transformer model as the generator to produce keywords and use a recurrent neural network model as the discriminator to classify an adversarial output with the generator. With the modified CGAN framework, various forms of semantic insights gathered from the query document corpus are introduced to the generation process. We leverage these insights as conditions for the generator model and discuss their effectiveness for the query expansion task. Our experiments demonstrate that the utilization of condition structures within the mQE-CGAN framework can increase the semantic similarity between generated sequences and reference documents up to nearly 10% compared to baseline models
translated by 谷歌翻译
In this manuscript, we present a novel method for estimating the stochastic stability characteristics of metastable legged systems using the unscented transformation. Prior methods for stability analysis in such systems often required high-dimensional state space discretization and a broad set of initial conditions, resulting in significant computational complexity. Our approach aims to alleviate this issue by reducing the dimensionality of the system and utilizing the unscented transformation to estimate the output distribution. This technique allows us to account for multiple sources of uncertainty and high-dimensional system dynamics, while leveraging prior knowledge of noise statistics to inform the selection of initial conditions for experiments. As a result, our method enables the efficient assessment of controller performance and analysis of parametric dependencies with fewer experiments. To demonstrate the efficacy of our proposed method, we apply it to the analysis of a one-dimensional hopper and an underactuated bipedal walking simulation with a hybrid zero dynamics controller.
translated by 谷歌翻译